4. 生成量と研究仮説が正しい確率
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
母数の事後分布は母数に関する推測的知見を与える
予測分布は将来のデータに関する予測的知見を与える
さらにデータに関する知見を深めるためには、母数の関数$ g(\bm \theta)の事後分布を導くことが有効
4.1. 生成量1
MCMC法による標本$ \bm\theta^{(t)}の関数$ g(\bm\theta^{(t)}) より広義には$ g(\bm\theta^{(t)})を母数と見た場合の乱数$ f(\cdot|g(\bm\theta^{(t)})))も生成量
MCMC法に生成量を付加すると、きわめて強力な分析が可能になる
MCMCほうによって大量に生成される生成量は、そのまま$ g(\bm\theta)の事後分布からの乱数として利用できる
たとえば$ g(\bm\theta)のEAP推定量は
$ g(\hat\bm\theta)_{eap} = \frac{1}{T}(g(\bm\theta^{(1)}) + \cdots + g(\bm\theta^{(t)}) + \cdots + g(\bm\theta^{(T)})) \qquad (4.1)
同様に生成量の中央値・最頻値は、それぞれ$ g(\bm\theta)のMED推定値・MAP推定値である
$ g(\bm\theta^{(t)})の標準偏差は生成量の事後標準偏差の推定値
%点を利用すれば生成量の確信区間も求まる
RQ.6 分散の点推定・区間推定
e.g. 分散は標準偏差の2乗である。標準偏差のEAPの2乗は分散のEAPだろうか。標準偏差のMEDの2乗は分散のMEDだろうか。また標準偏差の確信区間の上限や下限を2乗すると分散のそれになるだろうか
RQ.7 変動係数の点推定・区間推定
e.g. 平均値に対する測定値の平均的な揺れは何割だろうか
RQ.8 効果量の点推定
e.g. 平均的な測定値と実時間30秒との差は、平均的な測定値の散らばりと比較してどれ程の大きさだろうか
RQ.9 効果量の区間推定
e.g. 効果量は、どの区間に存在するのだろうか
RQ.10 %点の点推定・区間推定
e.g. 何秒より短い測定値が、4回に1回は観測されるだろうか。またその値は、どの区間に存在するのだろうか
RQ.11 特定区間での観測確率
e.g. 人間は機械ではないから、ピタリ言い当てるのには限界がある。1秒の幅を設けて的中とするならば、測定値が$ 29.5 秒以上$ 30.5 秒未満である確率はどれほどだろうか。またその確率はどの区間に存在するのだろうか
RQ.12 基準点との比の点推定・区間推定
e.g. 実時間$ 30 秒に対する、測定値の比はどれほどだろうか。その確信区間はどれほどだろうか。
研究状の問いに答えるために有用な生成量の例
https://gyazo.com/584e7f08b9878c056559c7fb1338e037
4.1.1. 分散
分散の事後分布は生成量
$ g(\sigma^{(t)}) = \sigma^{(t)2} \qquad (4.2)
で求められる
https://gyazo.com/84e2e14adbe451f1c97efb8a79c7b052
標準偏差の事後分布である図3-4と比較して分散の事後分布図4-1はさらに正の歪みが強く(右に裾が重たく)なっていることが観察される
2乗すると極端な値になるため
図の右側にはデータがないように見えるが、最大値は41付近にまで達している
平均の2条は2乗の平均に一致しないから、EAPに関しては
$ 5.33 = \hat\sigma^2_{eap} \neq (\hat \sigma_{eap})^2 = 2.27^2 = 5.15 \qquad (4.3)
であり、標準偏差のEAPの2乗は分散のEAPには一致しない
同様に標準偏差のpost.sdの2乗は分散のpost.sdには一致しない
単調増加変換をしても%点の順序は保存される
したがって、50%点の2乗は2乗の50%点に一致する
具体的にMEDに関しては
$ 4.92 = \hat \sigma^2_{med} = \hat \sigma^2_{med} = (\hat \sigma_{med})^2 = 2.22^2 = 4.92 \qquad (4.4)
であり、標準偏差のMEDの2乗は分散のMEDに一致していることが確認できる
また標準偏差の95%確信区間の上限・下限の2乗は、分散の95%確信区間の上限・下限に一致する(RQ.6への回答)
有効数字の影響で前者の2乗が後者に正確には一致しない場合もあるが、有効数字をあげると一致する
要するに、積率系の統計量は一致せず、分位系の統計量は一致する
4.1.2. 間隔尺度・比率尺度
連続的な値をとる測定特性のうち、絶対0点(特性のない状態)のあるもの e.g. 時間0秒・重さ0kg・長さ0m
比率尺度は絶対0点を基準に比を考えることができる
連続的な値をとる測定特性のうち、絶対0点のないもの
e.g. 摂氏0度、試験0点
4.1.3. 変動係数
測定値が比率尺度である場合には、散布度の指標として変動係数が計算できる
$ cv = \frac{\sigma}{\mu} \qquad (4.5)
変動係数は単位のない指標であり、平均値に対する相対的なばらつきを表す
変動係数の事後分布は生成量
$ g(\mu^{(t)}, \sigma^{(t)}) = \frac{\sigma^{(t)}}{\mu^{(t)}} \qquad (4.6)
で求める。
結果は$ 0.07(0.01)[0.05, 0.10] であった
$ \hat{cv}_{eap} = 0.07 であり、測定時間は平均値の$ 7\% 位の散らばりがある(RQ.7への回答)と解釈する
図4-2を観察すると右に裾が重たい
https://gyazo.com/1ff17b3bb3563a23e602682fceb84aaf
4.1.4. 基準点
「知覚時間」の$ 30秒
ここで大切なことは、基準点や基準確率が統計学とはまったく関係ない知見に基づいて設定されるということ
統計的分析においてもっとも大切なことは、常に研究上の問いを自覚し、実質科学的知見を最大限利用すること
4.2. 生成量2
4.2.1. 効果量
標準偏差を単位として、平均が基準点からどれくらい離れているかの指標に
$ \delta_c = \frac{\mu - c}{\sigma} \qquad (4.7)
がある。
効果量の事後分布は生成量
$ g(\mu^{(t)}, \sigma^{(t)}) = \frac{\mu^{(t)} - c}{\sigma^{(t)}} \qquad (4.8)
で求められる
ここでは目標としての実際の時間である$ 30 秒を基準点としてみる
効果量$ \delta_{30}の事後分布を図4-3に示す
https://gyazo.com/44c36ace520e1459cfbd68975431be16
効果量は$ 0.47(0.24)[0.01, 0.93] と推測された
$ \hat \delta_{30\ eap} = 0.47だから、目標となる実時間$ 30秒に対して、平均値は、平均的な散らばりの$ 47\%くらい上の点であると解釈する(RQ.8への回答)
95%の確信で効果量は$ [0.01, 0.93] に存在する(RQ.9への回答)
4.2.2. 分位点・%点
ここまでは母数に関係した生成量の事後分布を論じてきた
ここからは将来のデータ$ x^*に関係した生成量の事後分布を紹介する
$ x^*の%点の事後分布を
$ g(\mu^{(t)}, \sigma^{(t)}) = \mu^{(t)} + z \times \sigma^{(t)} \qquad (4.9)
のような生成量で利用できる
たとえば「何秒より短い測定値が4回に1回は観測されるだろうか」という疑問に答えるためには、25%点を調べればよい
$ F(-0.675|\mu=0, \sigma=1) \simeq 0.25より$ z = -0.675とすれば、$ 25\%点の事後分布が得られる
https://gyazo.com/0f399e29f5ec77012429177718988667
推測の結果は、$ 29.51(0.58)[28.23, 30.53]
EAP推定値を参照すると、4回に1回は$ 29.51 秒より短くなる事がわかる
$ 25\%点の$ 95\%の確信区間の上限は$ 30.53秒、下限は$ 28.23秒である(RQ.10への回答)
気象庁は、週間天気予報の降水確率に信頼度A, B, Cを付帯させている
Aは「確度が高い予報」
Bは「確度がやや高い予報」
Cは「確度がやや低い予報」
これは確率の区間推定であり、AよりCは区間が広くなっていることを意味し、メタ確率の1種
4.2.3. 特定区間での観測確率
将来のデータが区間$ [b, a] に観察される予測確率
$ F(x^* = a|\bm x) - F(x^* = b|\bm x) \qquad (4.10)
の事後分布は、モデル生成分布の確率分布関数を利用して、生成量
$ g(\mu^{(t)}, \sigma^{(t)}) = F(a|\mu^{t}, \sigma^{(t)} - F(b|\mu^{(t)}), \sigma^{(t)}) \qquad (4.11)
で求められる
正規分布(を初めとする有名な分布)の確率分布関数は多くの統計解析システムに実装されている
%点を調べると「ある確率で起きることはどんなことだろうか」という疑問に答えることができる
つまり(4.9)式を使うということは、確率を固定して現象を調べるということ
(4.11)式を使うと逆に「ある現象はどの程度の確率で起きるだろうか」という疑問に答えることができる
つまり、現象を固定して確率を考察できる
たとえば「人間は機械ではないから、ピタリ言い当てるのには限界がある。1秒の幅を設けて的中とするならば、測定値が29.5秒以上30.5秒未満である確率はどれほどだろうか」ということが知りたければ
$ g(\mu^{(t)}, \sigma^{(t)}) = F(30.5|\mu^{(t)}, \sigma^{(t)}) - F(29.5|\mu^{(t)}, \sigma^{(t)}) \qquad (4.12)
という生成量を利用する
https://gyazo.com/95d9e4e5e1e015b2a7727932f84922db
推測結果は$ 0.16(0.03)[0.11, 0.21] であった
測定値が29.5秒以上30.5秒未満である確率の点推定値は$ 16\%である
その確率が$ 95\% の確率で存在する確信区間は$ [0.11, 0.21]
これもメタ確率の表現になっている(RQ.11への回答)
条件付き予測分布には、簡便性以外の大きなメリットがある
表3-2の事後予測分布の%点は文字通り点
一方、条件付き予測分布の表4-1の%点は分布をしている
確信区間が求まるのであるから、その点で条件付き予測分布の方が有利
これは10万個の条件付き予測分布の分布(メタ分布)の情報を利用しているため 4.2.4. 比の分布
基準点に対する測定値の比
$ x^*/c \qquad (4.13)
の事後分布は、生成量
$ g(x^{*(t)}) = x^{*(t)}/c \qquad (4.14)
で求められる
実時間30秒に対する、測定値の比はどれほどだろうか
https://gyazo.com/cdec00f40f1264832c7dcfeea0a8012c
推測結果は$ 1.03(0.08)[0.88, 1.19] であった
点推定値は$ 1.03 であり、その$ 95\% 確信区間は$ [0.88, 1.19] であった(RQ.12への回答)
4.3. 研究仮説が正しい確率
研究仮説の真偽を表現する2値変数の生成量を構成すると、その研究仮説が正しい確率を調べることができる
研究仮説は「AはBである」という形式の命題で表現される
研究仮説$ Uに関する2値の生成量
$ u^{(t)} = g(\bm \theta^{(t)}) = \begin{cases} 1 & \bm\theta^{(t)}に関して研究仮説Uが真 \\ 0 & それ以外の場合 \end{cases} \qquad (4.15)
$ u^{(t)}を利用すると、以下のような研究上の問い(RQ)に答えられる
RQ.13 平均値が基準値より小さい(大きい)確率
e.g. 平均的な測定値が、実時間30秒より長い確率は何%だろうか
RQ.14 特定区間での観測確率
e.g. 測定値が29.5秒より大きく30.5秒より小さい確率
RQ.15 効果量が基準点より小さい(大きい)確率
e.g. 基準点30の効果量が0.5より大きい確率はどれほどだろうか
RQ. 16 特定区間での観測確率が、基準確率より大きい(小さい)確率
e.g. 測定値が29.5秒より長く30.5秒より短い確率が20%より小さいという信念はどれほど正しいだろうか
https://gyazo.com/388e96604a89449085ba30943e3a36c4
「平均値が基準点$ cより小さい」という研究仮説$ U_{\mu<c}が正しい確率は、生成量
$ u^{(t)}_{\mu<c} = g(\mu^{(t)}) = \begin{cases} 1 & \mu^{(t)} < c \\ 0 & それ以外の場合 \end{cases} \qquad (4.16)
のEAPで評価できる
検定の結果は、両側検定で$ p = 0.04, 片側検定で$ p=0.02であり、$ 5\%水準で有意である
しかし「仮に$ \mu=30であるとすると、今以上に甚だしい$ t値が観測される確率は$ 0.04である」という説明は、もってまわって、2階から目薬的で、とてもわかりにくい
「『平均的な測定値は実時間30秒より長い』という研究仮説は$ 98.5\%正しい」と直接的に言ったほうが圧倒的に論旨明快でわかりやすい
表4-2より、「平均的な測定値は実時間30秒より長い」という研究仮説$ U_{30<\mu}が正しい確率は$ 98\%である(RQ.13への回答)
表3-2を調べると「ある確率で起きることはどんなことだろうか」という疑問に答えることができる
$ cを指定して表4-2に類する票を調べると、逆に「ある現象はどの程度の確率で起きるだろうか」という疑問に答えることができる
「将来のデータが区間$ [b, a] に観察される予測確率」という研究仮説$ U_{b<x^*<a}が正しい確率は、生成量
$ u^{(t)}_{b<x^*<a} = g(x^{*(t)}) = \begin{cases} 1 & b < x^{*(t)} < a \\ 0 & それ以外の場合 \end{cases} \qquad (4.17)
のEAPで評価される
表4-2より、「測定値が29.5秒より大きく30.5秒より小さい確率」という研究仮説$ U_{29.5<x^*<30.5}が正しい確率は$ 16\%である(RQ.14への回答)
これは予測分布に基づく推論である
条件付き予測分布を利用した表4-1では、16%だった。
有効数字2桁目まで一致した
異なった推定量であるから、理論的には必ずしも一致はしない
確率の確率である確信区間を計算できるという意味では、条件付き予測分布(の分布)を利用したほうが有利である
「基準点$ cから計算された効果量は別の基準点$ c'より小さい」という研究仮説$ U_{\delta_c < c'}が正しい確率は、生成量
$ u^{(t)}_{\delta_c<c'} = g(\delta^{(t)}_c) = \begin{cases} 1 & \delta^{(t)}_c < c' \\ 0 & それ以外の場合 \end{cases} \qquad (4.18)
のEAPで評価される
表4-2より研究仮説$ U_{0.5<\delta_30}「基準点$ 30の効果量が$ 0.5より大きい」が正しい確率は$ 0.45である(RQ.15への回答)
「『将来のデータが区間$ [b, a] に観察される予測確率』は基準確率点$ c未満である」という研究仮説$ U_{p(b<x^*<a)<c}が正しい確率は生成量
$ u^{(t)}_{p(b<x^*<a)<c} = \begin{cases} 1 & F(a|\mu^{(t)}, \sigma^{(t)}) - F(b|\mu^{(t)}, \sigma^{(t)}) < c \\ 0 & それ以外の場合 \end{cases} \qquad (4.19)
のEAPで評価される
表4-2より、「測定値が$ 29.5秒より大きく$ 30.5秒より小さい確率」は$ 20\%未満である(5回に1回より稀である)という仮説は$ 95\%正しい(RQ.16への回答)
4.4. 論文・レポートでの報告文例
論文やレポートで報告する際には、無駄なくかつ正確に記述する必要がある
考察の文例は必ずしも一意でない著者の視点を必要とするので割愛する
点推定にはEAPを用い、$ (\quad) で事後標準偏差を、$ [\quad] で$ 95\% の確信区間を表す
母平均$ \mu は$ 31.04(0.52)[30.02, 32.06] であり、実時間$ 30 秒より母平均が大きい確率は$ p(30<\mu) = 0.98 である。$ \sigma は$ 2.27(0.40)[1.65, 3.22] である。予測分布$ x^* は$ 31.04(2.36)[26.35, 35.71] であり、幅$ 1 秒を的中とすると$ p(29.5 < x^* < 30.5) = 0.16 である。的中が$ 5 回に$ 1 回より少ない確率は$ p(p(29.5 < x^* < 30.5) < 0.2) = 0.95 である。効果量$ \delta_{30} は$ 0.47(0.24)[0.01, 0.93] であり、それが$ 0.5 以上である確率は$ p(0.5 < \delta_{30}) = 0.45である。
放送授業
データの要約的記述には標本分散を利用し、母集団の推定には不偏分散を利用する、と習うことがある
これは明確な誤り
データ生成分布として正規分布を想定した場合には、分母が$ nの標本分散が母分散の最尤推定量になる だから標本分散も母分散を推定するための統計量として立派に利用できる
そもそも分散とは
数値要約の一種で、散布度に関する要約統計量
偏差の2乗の平均
$ n個の散らばりの平均
$ nを分母に置いたほうが自然
不偏性とは、分散に限らず、一般に推定量の平均的な値が母数に一致する性質のことである 真の値は誰も知らないけれど1点に固定した母分散に不偏分散の平均が一致する
ベイズ的アプローチでは、母数が確率的に分布するので、通常の意味での普遍性という概念はなくなる
$ n個の散らばりの平均である標本分散の方がわかりやすいので、標本分散を使う